新词识别相关论文
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供支持。目前新词识别方法没有考虑针对谐音词的识......
期刊
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方......
本文研究了在基于统计语言模型的汉语统一分词框架下的新词识别问题。主要有以下两部分工作:(1)总结已有的新词识别特征及新词识别......
从Web中抽取和聚合对象信息对于Web数据处理意义重大,因为通常同一类型的对象分布于不同的Web资源中,而这些资源的结构特征迥异,现......
学位
当前随着计算机和互联网技术的普及,人们已经进入了信息呈指数级爆炸式增长的信息时代,每个人在实际生活中每时每刻都在不断地与信......
随着互联网技术的发展和移动通讯工具的普及以及微信、微博等社交平台的广泛应用,以提高交流效率或者表达某种情感为目的的、采用包......
微博新词的出现给短文本分词工作带来了极大的挑战。本文从多个角度对微博新词发现研究进行较为全面地分析。结合微博新词的构词规......
随着中国进入快速发展的新时代,汉语也在随着时代的发展而发展,作为汉语的重要组成部分,词语的更新变的最为活跃,在日常科技、经济、文......
在新词识别领域,研究者的研究阶段处于有效的新词特征挖掘和新词检测模型选择。现有的新词特征主要包括语言知识特征和统计特征。......
学位
文本分类是自然语言处理领域的任务之一,在邮件检测、情感分析、和主题类型等领域都有广泛的应用。文本表示是文本分类的关键和基......
随着全球化趋势和国际交流的日益频繁,语言之间的渗透与融合日渐增加,不同语种夹杂的表达方式在生活中也相当普遍,特别是在使用双......
新词识别是食品安全信息处理中的一个难点,新词是造成分词错误的重要原因。利用互信息提取新词特征并采用BP神经网络过滤垃圾词串......
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中......
针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法。针对新词不同的构词模式特......
为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次......
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词测间模式特征以及各种词内部模......
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此......
为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平......
中文自动分词是计算机中文信息处理中的难题。介绍一种基于数据驱动的中文分词方法,开发了基于该方法的分词系统,此系统在北大《人民......
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时......
新词识别是中文信息处理的重要课题,但因新词产生的速度快,语法、语用灵活,词典难以及时收录等问题使新词识别成为了中文信息处理领域......
针对新词识别过程中出现大量噪声词和伪新词的问题,提出一种基于生存法则模型的稳定新词识别方法.该方法借鉴自然法则和遗忘定律,......
去除内容相同或相近的新闻是提高搜索引擎关键技术之一。提出了一种基于主题关键词的新闻去重算法。该方法可基于小规模语料库识别......
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gr......
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词......
行为金融学表示,股市的走势将会受非理性投资者的情感、心理等主观因素的影响。与国外股票市场相比较,我国的股市仍然不够成熟和完......
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因......
对问答系统中的问句理解技术进行了深入研究,提出了对问句信息进行深层挖掘形成问句表征.对问句进行分词、去停用词等预处理;结合F......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
随着互联网的高速发展,微博、微信等文本形式的使用量逐渐增多,对于这类文本的分析理解在自然语言处理领域形成了新的挑战,尤其是......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
电力专业词汇识别是面向变电运检文档进行深入语言理解和知识图谱构建等智能应用的基础。领域无关识别方法的效果不能令人满意,为......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n......
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典......
新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新......
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的......
随着我国经济水平的迅猛提高与社会建设的日渐完善,互联网信息技术已经融入了人们工作生活的方方面面,成为了不可分割的一部分,改......
为了对微博语料中的新词进行有效的识别,针对微博语料独有的文本特性,该文提出基于SVM和特征相关性的微博新词发现方法。采用N元递......
随着远程教育研究的不断开展,对远程教育领域学术论文的研究,即远程教育元研究,也日渐显示出其必要性和可行性,一些学者如张伟远、......
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表......
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链......
互联网的发展,特别是以微博、微信为载体的两微自媒体迅速发展,对政府、企业而言,舆情监控变得尤其重要。网络舆情的传播,特别是负......
随着互联网技术的飞速发展,越来越多的新词出现在人们的日常生活中,新词虽然丰富了人们的日常表达,却给中文信息处理带来了挑战。......
互联网对于信息传播的巨大推动作用,越来越多的新词出现在人们的生活之中。这些新词反映了词汇学的发展和演进的趋势,成为语言学关......
互联网的发展极大地方便了人们进行信息交换,但海量信息产生的同时也给自然语言处理、词典编纂等带来了挑战。如何从海量信息中挖掘......
语言作为社会的晴雨表,生动而真实地记录了人类文明进步的历程。社会的不断进步,网络的飞速发展,以及新鲜事物的不断涌现,为新词的......